go_bunzee

토큰 기반 언어 환경에서 HTML은 비효율적인것 아닌가? | 매거진에 참여하세요

questTypeString.01quest1SubTypeString.00
publish_date : 26.01.30

토큰 기반 언어 환경에서 HTML은 비효율적인것 아닌가?

#HTML #마크다운 #구조 #비효율성 #토큰 #경제적 #언어

content_guide

토큰 기반 언어 환경에서 HTML의 한계와 마크다운의 부상

웹 시대의 핵심 언어였던 HTML은 인간 중심의 정보 표현을 위해 설계되었다.
HTML은 브라우저를 위한 언어였고, 인간의 시각적 이해를 최적화하는 것을 목표로 했다.

그러나 대규모 언어 모델(LLM)을 중심으로 한 AI 시대에서 텍스트의 기본 단위는 더 이상 페이지나 태그가 아니다.


AI가 인식하는 텍스트의 최소 단위는 토큰(token)이며,
텍스트는 “보여주기 위한 대상”이 아니라 “처리해야 할 데이터”로 재정의되고 있다.

경제적 관점에서 보더라도,
HTML은 토큰 기반 처리 환경에서 구조적으로 비효율적인 언어가 되었고,
마크다운(Markdown)은 AI 친화적 텍스트 표현 방식으로 부상하고 있다.

  • * 심지어 이 글도 마크다운이 아닌, HTML이다. 불필요한 스타일이 다닥다닥 붙어있다.

텍스트 표현 방식의 패러다임 전환

정보 기술의 역사에서 언어는 항상 권력의 중심에 있었다.

  • - 1990년대: HTML → 웹의 표준 언어

  • - 2000년대: XML / JSON → 데이터 교환의 표준

  • - 2010년대: Markdown → 개발자 협업의 표준

  • - 2023년대 이후: Token → AI 인식의 기본 단위

웹 시대의 텍스트는 “보여주기 위한 언어”였다. 반면 AI 시대의 텍스트는 “처리하기 위한 언어”다.

이 변화는 단순한 기술적 진화가 아니라,
AI가 인간의 소통 과정에서 핵심적인 매개체로 등장했다는 사실에서 비롯된다.

즉, 텍스트는 더 이상 인간만을 위한 것이 아니라, 인간과 AI 사이의 인터페이스로 기능한다.

토큰(Token)의 개념과 의미

1. 토큰의 정의

토큰은 자연어를 모델이 처리할 수 있는 최소 단위로 분해한 결과물이다.

토큰은 다음과 같은 특징을 가진다.

  1. - 언어적 단위(단어, 형태소, 문자)와 완전히 일치하지 않는다.

  2. - 통계적 빈도와 의미 구조에 따라 분해된다.

  3. - 모델의 비용, 성능, 이해력과 직접적으로 연결된다.

즉,

토큰은 AI 시대의 새로운 문법 단위이자, 동시에 경제 단위이다.

2. 토큰과 비용 구조

대부분의 LLM 서비스는 토큰 단위로 과금된다.

  • - 입력 토큰 수 → 비용 증가

  • - 출력 토큰 수 → 비용 증가

  • → 불필요한 토큰 → 직접적인 경제적 손실

따라서 AI 환경에서 텍스트는 더 이상 “무료 자원”이 아니다. 텍스트는 곧 비용이며, 효율성의 대상이 된다.


HTML의 구조적 비효율성

항목

HTML

Markdown

의미 대비 토큰 비율

낮음

높음

구조 복잡도

높음

낮음

중복 토큰

많음

적음

AI 처리 비용

높음

낮음

의미 추출 난이도

높음

낮음

1. HTML의 설계 목적

HTML은 다음 목적을 위해 설계되었다.

  • - 인간이 읽기 쉬운 문서 구조

  • - 브라우저 렌더링을 위한 태그

  • - 시각적 레이아웃 표현

  • - DOM 구조 생성

즉, HTML은 본질적으로 “디스플레이 언어(display language)”다.

2. 토큰 관점에서 본 HTML

HTML을 토큰 관점에서 분석하면, 구조적 문제가 드러난다.

예를 들어,

<div class="wrapper">
  <section id="main-content">
    <h1>AI 시대의 글쓰기</h1>
  </section>
</div>

AI에게 의미 있는 정보는 사실상 다음과 같다.

# AI 시대의 글쓰기

나머지 태그와 속성은 의미 전달에 거의 기여하지 않는다.
토큰 관점에서 보면 이는 노이즈에 가깝다.

3. HTML의 근본적 한계

HTML은 다음과 같은 구조적 한계를 가진다.

  1. - 의미 대비 토큰 밀도가 낮다.

  2. - 중첩 구조로 인해 중복 토큰이 증가한다.

  3. - 의미와 표현이 분리되지 않는다.

HTML은 인간에게는 친절하지만, AI에게는 비싼 언어다.

AI 프롬프트 환경에서 마크다운의 사실상 표준화가 되었다.

여기서 중요한 변화가 등장한다.

AI와의 상호작용에서, 마크다운은 단순한 문서 포맷을 넘어 사실상의 표준 언어로 기능하고 있다.

현재 대부분의 AI API를 호출하는 사용자들은 다음과 같은 방식으로 프롬프트를 작성한다.

## 목표
이 문서를 요약하라.

## 조건
- 핵심 논지를 유지할 것
- 기술적 내용을 강조할 것

## 출력 형식
- 목록 형태로 정리

이 구조는 우연이 아니다. 마크다운은 다음 이유로 AI 프롬프트에 최적화되어 있다.

  1. - 의미 구조를 명확히 드러낸다.

  2. - 계층적 정보 표현이 가능하다.

  3. - 불필요한 문법 요소가 없다.

  4. - 모델이 구조를 쉽게 인식한다.

즉,

마크다운은 인간이 AI에게 사고 구조를 전달하는 언어다.

응답 형식으로서의 마크다운

흥미로운 점은, AI의 출력 결과 역시 점점 마크다운 형식으로 표준화되고 있다는 사실이다.

AI가 생성하는 텍스트는 대부분 다음과 같은 특징을 가진다.

  • 제목: #

    목록: -, *

    강조 : **

    코드블록 : ``

  • 테이블 : --

이는 단순한 편의성이 아니다. 마크다운은 다음 조건을 동시에 만족한다.

  • - 응답을 최소한으로 해야한다.

  • - 인간에게 읽기 쉽다.

  • - 기계가 파싱하기 쉽다.

  • - 구조적 의미를 유지한다.

  • - HTML로 쉽게 변환 가능하다.

마크다운은 현재 AI 입력/출력 언어로서 가장 효율적인 포맷이다.

가장 효율적이면, 그것을 사용하는 빈도는 높아질 가능성이 크다.

AI를 자주사용하면 사용할 수록, 당신은 마크다운을 더 쉽고, 편하게 사용하고, 익숙해지게 될것이다.